百分位数 - 快速入门与示例

作者:Ruben Geert van den Berg,归档于 Statistics A-Z

n 个百分位数是将最低 n % 的值与其他值分隔开的值。

例如:体重的第 10 个百分位数是 60 公斤。这意味着 10% 的人体重低于 60 公斤,90% 的人体重高于 60 公斤。

  • 百分位数 - 简单示例
  • 百分位数 - 插值公式
  • PERCENTILE.EXC 还是 PERCENTILE.INC?
  • 在 SPSS 中计算百分位数
  • 四分位数、中位数和箱线图

百分位数 - 简单示例

一些渔民捕获并测量了 100 条鳟鱼。由此获得的数据位于 这个 Googlesheet 中,部分内容如下所示。

百分位数简单示例

那么这些鳟鱼长度的第 10 个百分位数是多少呢?对于我们的 100 个观测值,这非常简单。我们只需要:

  • 按升序对长度进行排序;
  • 对长度进行排名,同时忽略重复值(出现多次的值);
  • 找到观测值 10(10% 的 100 个观测值)和 11(下一个观测值)之间的长度。

如上面的截图所示,观测值 10 和 11 的长度均为 31 厘米。这是长度的第 10 个百分位数,Excel 或 SPSS 都可以轻松确认。

遗憾的是,现实生活中的数据很少如此简单。例如,如何从 N = 141 个观测值中找到第 15 个百分位数?

在这种情况下,我们最好使用一个或两个简单的公式。我们将演示如何使用它们来找到长度的第 15 个百分位数。

百分位数 - 排名公式

百分位数 \(pct\) 是一个值,其 \(Rank_{pct}\) 定义为

\[Rank_{pct} = \frac{pct}{100} \cdot (N + 1)\]

其中

  • \(Rank_{pct}\) 表示某个百分位数 \(pct\) 的排名;
  • \(N\) 表示样本大小或总体大小。

因此,100 个观测值的第 15 个百分位数是排名为

\[Rank_{15} = \frac{15}{100} \cdot (100 + 1) = 15.15\]

遗憾的是,没有排名为 15.15 的观测值。因此,我们查看 我们的 Googlesheet 中最接近的排名,即 15 和 16。

百分位数非整数排名

请注意

  • 观测值 15 的长度为 31 厘米;
  • 观测值 16 的长度为 32 厘米。

如果两个值相等(如排名 10 和 11 之间,均为 31 厘米),我们将报告该值。但是,第 15 个百分位数是介于 31 厘米(排名 15)和 32 厘米(排名 16)之间的某个值。

很可能想简单地报告平均值,即 31.5 厘米。但是,15.15 更接近排名 15,而不是排名 16。通常通过 线性插值 来考虑这一点。

百分位数 - 插值公式

对于非整数排名,通常使用以下公式计算精确的百分位数:

\[Pct = X_{tr} + (X_{tr + 1} - X_{tr}) \cdot ({r - tr})\]

其中

  • \(Pct\) 表示所需的百分位数;
  • \(r\) 表示所需百分位数的十进制排名;
  • \(tr\) 表示所需百分位数的截断排名;
  • \(X_{tr}\) 表示截断排名的分数;
  • \(X_{tr + 1}\) 表示截断排名 + 1 的分数。

对于我们的示例,这将导致

\[Pct = 31 + (32 - 31) \cdot ({15.15 - 15}) = 31.15\]

我们的 Googlesheet 显示了 如何实现此公式以及 其结果。

百分位数插值公式

请注意,我们使用内置的百分位数函数复制了此结果,即在 Googlesheets 以及 Excel 中为 =PERCENTILE.EXC(B2:B101,0.15)。正如我们稍后将看到的,SPSS 产生相同的结果。

PERCENTILE.EXC 还是 PERCENTILE.INC?

您可能已经注意到,Excel 和 Googlesheets 包含 2 种不同的百分位数公式:

  • PERCENTILE.EXC 排除百分位数 0 和 100。也就是说,这些是未定义的。
  • PERCENTILE.INC 将百分位数 0 定义为最小值,将百分位数 100 定义为最大值。

那么哪个最好呢?

我个人的意见是,PERCENTILE.EXC 更有意义,因为它符合我们的定义:第 n 个百分位数是将最低 n % 的值与其他值分隔开的值。这意味着第零个百分位数是将所有值中最低 0%(!?!)的值与其他值分隔开的值。

这 - 以及因此的 PERCENTILE.INC - 对我来说没有多大意义。但如果您不同意,我很乐意听取您的意见。

在 SPSS 中计算百分位数

SPSS 用户可以先下载并打开 trout.sav 。现在,找到百分位数的最简单方法是从 A nalyze (分析) SPSS 菜单箭头 D e scriptive statistics (描述性统计) SPSS 菜单箭头 F requencies (频率),并填写如下所示的对话框。

SPSS 频率中的百分位数

一个更快的选择是使用 SPSS 语法,如下所示。

***查找长度的百分位数 5、10 和 15。
**
frequencies length
/percentiles 5 10 15.

完成这些步骤再次确认 31.15 厘米是我们的鳟鱼长度的第 15 个百分位数。

SPSS 输出中的百分位数

四分位数、中位数和箱线图

最常报告的百分位数是

  • 第 25 个百分位数,也称为四分位数 1;
  • 第 50 个百分位数,也称为四分位数 2 或 中位数
  • 第 75 个百分位数,也称为四分位数 3。

这些百分位数通常在 箱线图 中报告,如下所示。

带有解释的箱线图示例

百分位数 - 概念性问题

最后但同样重要的是,我想指出一些教科书很少提及的关于百分位数的 2 个概念性问题。

首先,在重复值的情况下,百分位数可能无法完全将最低 n% 的观测值与其他观测值分开。关于我们的第一个例子,

  • 9.0% 的鳟鱼的长度小于 31 厘米;
  • 6.0% 的鳟鱼的长度等于 31 厘米;
  • 85.0% 的鳟鱼的长度大于 31 厘米。

请注意,这里 没有一个单独的值 完全 将最低 10% 与所有其他观测值分开。

第二个概念性问题恰恰相反:在某些情况下,有无限多个值 完全 分隔最低 n% 的值。这适用于我们的第二个示例,该示例得出的排名为 15.15。

请记住,排名 15 和 16 对应于 31 和 32 厘米。我们的插值公式得出 15.15 厘米,但是

  • 31.0000001 厘米也 完全 分隔最低 15%;
  • 31.0000002 厘米也 完全 分隔最低 15%;
  • 以此类推…

幸运的是,这些概念性问题很少困扰现实世界的数据分析。